Introducción a la Visión por Computadora y el Procesamiento de Imágenes Digitales

Visión por Computadora es el campo de la inteligencia artificial que permite a las computadoras obtener información significativa a partir de imágenes y videos digitales, intentando efectivamente cerrar la brecha semántica entre los datos brutos de píxeles y la comprensión a nivel humano.Procesamiento de Imágenes Digitales sirve como capa fundamental para la Visión por Computadora, centrándose en la manipulación y mejora de señales de imagen mediante transformaciones píxel a píxel para preparar los datos para tareas interpretativas de nivel superior.

Principios Fundamentales

Representación de Datos: A nivel de máquina, una imagen es un tensor numérico, más que una imagen global. Las imágenes en escala de grises son matrices 2D de valores de intensidad, mientras que las imágenes en color son tensores 3D que representan los canales Rojo, Verde y Azul (RGB) con dimensiones $H \times W \times 3$.
Transformación frente a Interpretación: El Procesamiento de Imágenes Digitales se ocupa principalmente de operaciones imagen a imagen, como reducción de ruido, agudización o ecualización de histograma. La Visión por Computadora se enfoca en operaciones imagen a conocimiento, como clasificación de objetos, localización y segmentación.
El Paradigma de Gráficos Inversos: La Visión por Computadora puede considerarse como lo inverso de la Gráfica por Computadora. Mientras que la graficación busca generar un mundo visual a partir de modelos matemáticos, la visión busca recuperar estructuras 3D y etiquetas semánticas a partir de proyecciones 2D.

El Desafío Fundamental

El principal desafío en este campo es la Brecha Semántica, que es la desconexión entre los valores de píxeles de bajo nivel procesados por las máquinas y los conceptos de alto nivel percibidos por los humanos.

Implementación en Python

Pregunta 1

¿Qué proceso se clasifica como una operación imagen a conocimiento?

Procesamiento de Imágenes Digitales

Visión por Computadora

Gráficos por Computadora

Ecualización de Histograma

Pregunta 2

¿Cuál es la estructura de datos de una imagen en color estándar a nivel de máquina?

Matriz 2D

Arreglo 1D

Tensor 3D / Canales RGB

Lista Enlazada

Estudio de Caso: Sistema Médico de Diagnóstico

Lee el escenario a continuación y responde las preguntas.

Un hospital está desarrollando un nuevo sistema automático de diagnóstico médico diseñado para analizar radiografías en busca de posibles fracturas óseas. El sistema procesa datos brutos del sensor de la máquina de rayos X y genera un informe diagnóstico para el radiólogo.

1. Si el sistema aplica mejoras de contraste para hacer más claras las estructuras óseas, ¿es Procesamiento de Imágenes Digitales (DIP) o Visión por Computadora (CV)?

Respuesta:
Procesamiento de Imágenes Digitales. La mejora de contraste es una transformación imagen a imagen que mejora la calidad visual de la señal sin extraer significado semántico.

2. Si el sistema marca automáticamente un área específica como posible fractura, ¿qué tarea está realizando?

Respuesta:
Visión por Computadora / Detección de Objetos. El sistema está interpretando el contenido de la imagen para extraer conocimiento de alto nivel (localizar una fractura).

3. ¿Por qué es necesario reducir el ruido antes de ejecutar un algoritmo de detección?

Respuesta:
Para mejorar la calidad de la señal y reducir falsos positivos en la fase de interpretación semántica. El ruido puede ser malinterpretado por los algoritmos de CV como características reales o bordes.